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摘要 : [目的 ] 本 文 则 在 提高 专利 技术 功效 自动 化 提取 的 准确 度 。[ 方 法 ] 使 用 ChatGPT 作为 教 
币 模型 (Teacher-model) ，ChatGLM3 作为 学 生 模 型 (Student-modeD) ， 通 过 知识 蒸馏 ， 将 
hatGPT 生成 的 训练 数据 微调 ChatGLM3， 得 到 多 个 技术 词 抽取 模型 和 功效 词 抽取 模型 。 采 
多 个 技术 词 抽 取 模 型 分 别 从 专利 的 摘要 、 第 一 权利 要 求 和 技术 功效 语 段 中 抽取 技术 词 ，3 
采用 功效 词 抽取 模型 从 技术 功效 语 段 中 抽取 功效 词 。[ 结 果 ] 微 调 后 的 多 个 技术 词 抽取 模型 和 
功效 词 抽 取 模 型 相 较 于 ChatGPT， 在 抽取 技术 词 和 功效 词 时 呈现 准确 率 高 、 召 回 率 低 的 特 
点 ， 第 一 权利 要 求 的 ChatGLM3 微调 模型 的 准确 率 和 Fl 值 最 高 ， 分 别 为 0.734 和 0.724。 功 
效 词 抽取 模型 抽取 的 功效 词 的 准确 率 为 0.649， 大 于 商业 工具 标注 功效 词 的 准确 率 0.53。[ 局 
限 ] 本 研究 的 技术 领域 和 专利 语言 单一 ， 验 证 数据 量 偏 小 ， 数 据 清 洗 规则 还 有 待 于 继续 优化 。 
[结论 ] 本 研究 方案 通过 知识 蒸馏 操作 ， 提 升 了 大 语言 模型 自动 化 抽取 技术 功效 的 准确 性 。 同 
时 ， 本 研究 能 够 支持 从 专利 文本 中 挖掘 前 沿 创新 技术 、 热 点 技术 ， 支 撑 更 高 质量 的 智能 化 专 

利 分 析 。 
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Abstract: [Objective] This paper aims to improve the accuracy of automatic extraction of key 
technical words and corresponding function words from patent.[Methods] ChatGPT was used as 
the Teacher-model, and ChatGLM3 was used as the Student-model. Through knowledge 
distillation method, the training data generated by ChatGPT was used to fine-tune ChatGLM3, and 
multiple technical word extraction models and a function word extraction model were obtained. 


The technical words are extracted from the abstract, the first claim and the technical function 


paragraph, respectively, by using multiple technical word extraction models, and the function 
words are extracted from the technical function paragraph by using the function words extraction 
model.[Results] Compared with ChatGPT, the fine-tuned multiple technical word extraction 
models and function word extraction model show higher accuracy and lower recall rate, when 
extracting technical words and function words. The ChatGLM3 fine-tuning model of the first 
claim has the highest accuracy and Fl values of 0.734 and 0.724 respectively. Moreover, The 
accuracy of the function words extracted by the function word extraction model is 0.649, which is 
higher than the accuracy of the function words labeled by the commercial tool, which is is 
0.53.[Limitations] The technical field and patent language of this research are single, the 
amount of patent verification data is small, and the data cleaning rules expect to be further 
optimized. [Conclusions] This research Scheme improves the efficiency accuracy of automatic 
extraction of large language model through knowledge distillation operation. At the Same time, 
this study can Support the mining of cutting-edge innovative and hot technologies from Patent 
texts, and Support higher quality intelligent patent analysis. 
Keywords: Technical function word extraction; Knowledge distillation; Fine-tuning model; 
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1 引言 


专利 是 技术 创新 成 果 的 重要 载体 ， 也 是 技术 情报 获取 的 重要 信息 来 源 ， 全 球 
海量 专利 数据 给 技术 分 析 带 来 巨大 挑战 。 专 利 作 为 非 结 构 化 文本 , 在 描述 方式 或 
术语 上 并 不 统一 ， 导 致 难以 使 用 简单 的 规则 抽取 其 中 的 具备 创造 性 的 核心 技术 ， 
当前 人 工 参 与 标注 的 抽取 方式 ， 己 无 法 满足 对 大 规模 专利 数据 集 快速 分 析 的 需 
要 。 技术 功效 矩阵 或 称 为 技术 功能 和 矩阵， 是 一 种 典型 的 专利 分 析 方 法 ， 用 于 发 现 
高 价值 技术 、 分 析 技 术 热 点 和 空白 点 、 定 位 特定 领域 的 技术 差距 等 。 专利 技术 功 
效 矩 阵 对 于 专利 分 析 很 有 帮助 ， 但 创建 起 来 比较 困难 。 通 常 ， 面 向 中 文 专利 的 实 
体 提 取 方 法 主要 有 关键 词 抽取 、 实 体 关 系 抽取 、 技 术 功 效 主题 提取 、 实 体 消 歧 、 
关键 短语 、 技 术 主 题 、 知 识 图 谱 实体 抽取 等 。 就 技术 功效 而 言 ， 主 要 有 基于 领域 
知识 库 或 词典 出、 文本 分 词 中 、 基 于 TRIZ 理论 Bl、 基于 SAO (Subject - Action - 
Object) 结构 由 、 句 法 分 析 申 、TF-IDF 算法 外 、 基 于 预 训练 模型 BARTM 等 ， 以 上 
研究 多 是 借助 词性 标注 或 建立 词典 等 半自动 化 抽取 方式 。 随 着 大 语言 模型 的 发 
展 ，ChatGPT 能 够 理解 和 学 习 人 类 语言 并 进行 对 话 , 推动 了 人 工 智 能 生成 技术 的 
应 用 外， 利用 大 语言 模型 的 上 下 文理 解 能 力 ， 自 动 生 成 需要 的 技术 功效 内 容 成 为 
可 能 外。 

本 文 基于 大 语言 模型 ， 通 过 知识 蒸馏 操作 , 采用 ChatGPT 生成 的 技术 词 和 功 
效 词 作为 训练 语 料 ， 对 ChatGLM3 模型 进行 微调 ， 确 定 技术 词 抽取 模型 和 功效 
词 抽取 模型 , 进一步 对 多 种 技术 词 抽 取 方 式 进行 系统 评 佑 ， 且 所 抽取 技术 词 与 商 
业 工 具 功 效 词 的 准确 率 比 较 , 确定 较为 准确 的 技术 词 和 功效 词 自动 抽取 方式 。 由 
此 提高 专利 技术 功效 自动 化 抽取 的 准确 度 ， 以 快速 提取 专利 核心 信息 , 在 不 需要 
通读 专利 全 文 的 情况 下 ,掌握 专利 的 技术 和 功效 要 点 。 实 现 从 专利 文本 中 自动 抽 
取 解 决 特定 技术 问题 的 核心 技术 方案 的 技术 词 和 功效 词 ， 辅 助 构建 技术 功效 实 
体 ， 准 确 反 映 专利 技术 发 展 脉络 和 分 布 趋势 。 


2 相关 研究 


2.1 文本 挖掘 技术 在 技术 功效 构建 的 应 用 现状 


随 着 计算 机 技术 的 发 展 ， 应 用 于 智能 化 抽取 专利 技术 功效 的 技术 也 在 不 断 更 
和 迭 ,， 以 寻求 更 加 贴近 人 工 标 注 方式 且 更 加 准确 的 构建 方法 。2012 年 , 陈 颗 等 人 H0 
建立 评价 单词 或 短语 表示 技术 功效 特征 效果 的 特征 度 指标 , 过 滤 掉 数据 集中 特征 
度 低 的 词 或 短语 ， 抽 取 特 征 词 或 技术 词 。 陈 晨 等 人 00 基 于 人 工整 合 后 的 德 温 特 
专利 数据 的 摘要 , 使 用 将 文本 挖掘 与 分 布 式 计算 相 结 合 的 方法 , 构造 技术 功效 与 
技术 应 用 和 矩阵 图 。2015 年 ， HE 等 人 tI 应 用 语义 角色 标签 创建 技术 从 优势 句 中 提 
取 专 利 技术 和 效果 短语 。 惟 东升 等 人 03 使 专利 摘要 构建 数据 仓库 ， 利 用 微软 数 
据 分 析 服 务 ， 实 现 技术 功效 图 的 构建 与 多 维 分 析 。2016 年 ， 胡 菊香 等 人 0 定位 
专利 摘要 中 包含 技术 功效 短语 的 单 句 , 结合 依存 关系 规则 、 短 语 规则 计算 共 现 频 
率 较 高 的 词 ， 并 提取 技术 功效 词 。 

2017 年 ，Huang 等 人 所 利用 斯 坦 福 解析 器 和 关联 规则 从 专利 文本 的 独立 权利 
要 求 中 提取 和 分 离 有 关 技 术 和 功能 的 信息 ， 构 建 技术 功效 矩阵 。 段 庆 锋 等 人 03 
研究 了 基于 SAO (SubjectrAction-Object) 结构 的 技术 主题 、 功 效 主题 分 析 方 法 ， 
构建 摘要 的 SAO 技术 三 元 组 ， 抽 取 技 术 与 功效 的 词语 ， 经 过 凝练 后 构建 专利 算 
阵 。2018 年 ，Amy 等 人 09 构 建 7 个 技术 指标 和 7 个 功能 指标 ， 并 将 挖掘 的 专利 
关键 术语 进行 分 组 。Deng 等 人 07 提 出 一 种 多 特征 融合 评分 算法 PaEffExtr， 利 用 
专利 效果 陈述 的 分 布 (效果 语 句 绝 大 部 分 出 现在 摘要 的 末尾 〉 和 形态 特征 (效果 
语句 中 往往 有 特定 的 线索 词 ) ， 构 造 一 条 线索 词 库 ， 并 使 用 打分 方法 从 中 文 专利 
摘要 中 自动 提取 效果 语句 。 

2020 年 ， 王 狗 洁 等 人 08 从 构成 要 素 、 技 术 工 艺 与 功能 效果 三 个 维度 ， 抽 取 
技术 词 并 统计 词 频 ，Yang 等 人 19 对 工艺 专利 技术 词 提 取 ， 计 算 候 选 词 的 正 值 和 
IDF 值 ， 再 从 中 选择 技术 词 。2021 年 ， 李 剑 飞 等 人 多 抽取 专利 说 明 书 中 发 明 内 
容 部 分 的 技术 方案 及 功效 信息 , 通过 相似 度 计 算 并 辅 以 阔 值 筛选 建立 双方 的 技术 
关联 关系 ， 最 后 构建 技术 -功效 图 。 向 妹 聊 等 人 的 从 权利 要 求 和 说 明 书 发 明 内 容 
部 分 抽取 核心 技术 ， 从 说 明 书 背景 技术 的 最 后 一 段 、 发 明 内 容 的 第 一 段 或 具体 说 
明 倒 数 后 几 段 抽取 功效 。2022 年 ，Shi 等 人 号 采 从 中 文摘 要 中 综合 使 用 语义 依存 
解析 器 和 预 训练 的 语言 模型 来 提取 功能 和 技术 短语 。 Korobkin 等 人 四 通过 句法 分 
析 的 方式 从 第 一 权利 要 求 中 抽取 多 个 元 组 ， 将 专利 的 功能 定义 为 “对 象 -条 件 - 动 
作 ”， 并 实现 非 结 构 化 信息 的 抽取 。WANWOOK 等 人 P31， 提 出 一 种 半自动 化 方 
式 ， 使 用 自然 语言 处 理 提 取 专 利 的 关键 技术 信息 ， 然 后 将 这 些 信 息 以 和 矩阵 形式 可 
视 化 形式 ， 该 研究 仅 使 用 第 一 个 权利 要 求 ， 因 为 它 通常 表达 最 重要 和 最 详细 的 信 
息 ， 并 包含 总 体 技 术 描 述 ， 用 户 可 以 确认 特定 专利 是 否 包 含 所 需 的 技术 信息 ， 并 
可 以 检测 该 信息 内 的 关系 。 

于 专利 文本 信息 而 言 ， 并 非 出 现 频率 高 就 一 定 是 核心 技术 或 功效 词 ， 计 算 词 
频 的 方式 所 抓 取 的 技术 词 相 较 于 专利 真正 的 核心 技术 ， 其 准确 性 有 待 进一步 验 
证 。 然 而 ，SAO 结构 的 抽取 分 析 及 主题 词 的 凝练 ， 需 要 借助 专家 经 验 ， 过 程 中 
设置 技术 指标 和 功能 指标 依然 离 不 开 人 工 判断 。 也 有 一 些 研究 的 侧重 点 在 于 对 技 
术 功 效 矩 阵 做 评价 指标 ， 将 技术 和 功效 两 个 维度 的 内 容 依靠 人 工 解 读 鸣 ， 将 数 
据 归 入 “技术 -功效 ”矩阵 框架 中 ， 并 没有 解决 技术 功效 算 阵 构建 的 耗费 大 量 人 力 
的 痛 点 问题 。 

从 专利 文本 记载 内 容 来 看 ， 专 利文 本 的 说 明 书 全 文中 包括 大 量 信息 ， 如 背 
技术 部 分 记载 技术 现状 和 技术 问题 的 描述 , 实施 方式 部 分 记载 技术 方案 具体 内 


展开 和 扩展 描述 等 , 为 了 避免 从 专利 中 抽取 信息 的 杂乱 ,很 少 有 研究 从 全 文盲 目 
抽取 技术 或 功效 。 从 已 公开 研究 来 看 , 通常 专利 的 技术 词 主要 从 摘要 或 第 一 权利 
要 求 中 抽取 ， 功 效 词 主要 从 摘要 、 说 明 书 背景 技术 的 最 后 一 段 、 发 明 内 容 的 第 一 
段 或 倒数 后 几 段 中 抽取 。 据 《专利 审查 指南 》 的 要 求 ， 摘 要 的 字数 限制 在 300 
以 内 ， 其 通常 包括 主题 名 称 、 第 一 权利 要 求 的 部 分 内 容 ， 有 些 摘要 还 包括 部 分 功 
效 内 容 。 而 摘要 限于 字数 要 求 , 通常 其 记载 的 技术 和 功效 内 容 上 相 比 于 第 一 权利 
要 求 和 其 说 明 书 中 的 功效 描述 都 不 完整 ,专利 的 第 一 权利 要 求 包括 解决 技术 问题 
的 完整 技术 方案 ， 发 明 /实用 新 型 内 容 的 倒数 后 几 段 包括 对 应 于 第 一 权利 要 求 的 
技术 功效 的 较为 完整 的 描述 。 前 述 研 究 涉及 从 专利 的 不 同 内 容 中 抽取 技术 信息 ， 
但 是 很 少 用 同一 个 建 模 方法 对 专利 不 同 内 容 中 抽取 技术 词 的 效果 做 比较 , 以 在 同 
一 标准 下 推荐 最 为 准确 的 抽取 方式 。 虽 然 一 些 商业 化 工具 ， 如 Incopat 专利 检索 
数据 库 ， 已 标注 并 能 导出 每 条 专利 的 功效 词 ， 但 其 准确 性 还 待 进一步 验证 。 专 利 
文本 中 记载 的 技术 信息 量 大 且 语 言 结构 化 较 差 ， 其 中 的 定义 、 实 体 、 概 念 、 描 述 
规则 等 都 不 统一 ， 有 些 技术 和 功效 抽取 方法 难以 确定 信息 的 边界 、 类 型 等 ,也 为 
专利 技术 功效 的 抽取 提出 了 新 的 挑战 。 


2.2 ”大 模型 技术 在 技术 功效 构建 的 应 用 现状 


2018 年 谷歌 团队 开创 性 地 提出 了 预 训 练 语言 模型 BERT, 之 后 该 模型 不 断 改 
进 , 也 同时 激发 了 大 量 的 以 预 训练 模型 为 基础 的 自然 语言 处 理 的 应 用 研究 。2023 
年 ， 刘 春江 等 人 5 基于 BERT-BiGRU-CRF 抽取 技术 功能 和 技术 效果 的 三 元 组 ， 
在 不 同 层级 与 粒度 下 自动 构建 专利 技术 功效 矩阵 。2022 年 11 月 ，ChatGPT 的 问 
世 展 示 了 大 预言 模型 的 无 线 潜力 , 该 模型 能 够 理解 需求 , 结合 上 下 文 提 供 合 适 的 
答案 ， 也 迅速 被 应 用 到 越 来 越 多 的 场景 中 。 白 如 江 等 人 中 使 用 ChatGPT+Prompt 
的 方法 实现 专利 技术 词 、 功 效 词 以 及 技术 功效 二 元 组 的 识别 、 提 取 和 生成 。 但 是 ， 
其 prompt 流程 中 示例 的 技术 词 主 要 来 自 专 利 标题 内 容 ， 技 术 词 的 抽取 规则 比较 
模糊 ， 虽 然 每 个 技术 领域 检索 专利 5000 件 ， 但 在 每 个 领域 仅仅 人 工 随机 标注 50 
条 数据 (其 中 包括 30 条 中 文 专利 、10 条 英文 专利 ，10 条 日 文 专利 ) ， 标 注 数 据 
量 和 总 数据 量 差距 很 大 ， 模 型 效果 有 待 验 证 。 

中 文 专利 中 包含 大 量 的 技术 信息 且 描 述 规则 不 统一 ， 中 文 语义 多 样 ， 借 助 大 
模型 进行 技术 词 和 功效 词 抽取 时 难度 进一步 加 大 。2023 年 10 月 27 日 ， 中 国 计 
算 机 大 会 CNCC2023 上 ， 智 谱 AI 发 布 了 自 研 第 三 代 对 话 大 模型 ChatGLM3C9， 
首次 加 入 了 代码 识别 模块 Code Interpreter， 在 多 模 态 理解 、 代 码 生 成 、 网 络 搜索 
以 及 语义 和 逻辑 推理 能 力 都 得 到 了 显著 增强 。 由 此 ， 本 研究 结合 知识 蒸馏 
(knowledge distillation ) 方式 PC1， 以 ChatGPT 作为 教师 模型 ，ChatGLM3 作为 
学 生 模 型 ， 使 用 ChatGPT 分 别 基 于 专利 的 摘要 ， 第 一 权利 要 求 ， 发 明 /实用 新 型 
内 容 部 分 最 后 几 段 的 技术 功效 段落 生成 技术 词 , 并 将 技术 词 经 过 清洗 后 得 到 技术 
词 抽取 训练 数据 。 那 么 ， 从 专利 的 三 部 分 内 容 中 分 别 得 到 的 训练 数据 微调 
ChatGLM3 模型 ， 得 到 抽取 技术 词 的 微调 模型 三 个 ， 后 续 经 过 准确 率 、 召 回 率 和 
Fl 值 对 比 后 ， 确 定 准 确 率 最 高 的 微调 模型 。 使 用 ChatGPT 从 技术 功效 段落 生成 
的 功效 词 ， 经 过 清洗 后 作为 功效 词 抽取 训练 数据 ， 对 ChatGLM3 模型 进行 微调 
得 到 抽取 功效 词 的 模型 。 摘 要 中 所 记载 的 功效 内 容 通常 包含 在 技术 功效 段落 中 ， 
这 里 不 再 对 比 摘 要 和 技术 功效 段落 在 抽取 功效 词 上 的 效果 差异 。 本 文选 择 将 功效 
词 抽取 结果 与 mcopat 数据 库 导 出 功效 词 进行 比较 ， 评 估 抽 取 结 果 的 准确 率 。 对 


ChatGLM3 微调 后 的 模型 进行 实证 , 综合 评估 抽取 效果 后 确定 抽取 技术 功效 更 为 
准确 的 方式 。 
3 研究 设计 


3.1 研究 框架 


本 研究 不 需要 构建 领域 词典 ， 从 人 工 智 能 驱动 自然 语言 处 理 的 角度 ， 采 用 
ChatGPT 和 ChatGLM3 两 种 大 语言 模型 ， 以 知识 蒸馏 的 方式 ， 构 建 技术 功效 抽 
取 方 法 ， 提 高 抽取 准确 性 。 本 研究 的 研究 框架 见 下 图 1。 研 究 思路 主要 分 为 如 下 
三 个 部 分 :训练 数据 处 理 、 模 型 微调 、 抽 取 效 果实 证 。 使 用 ChatGPT 作为 教师 
模型 (Teacher-model) ， 将 专利 训练 数据 的 第 一 权利 要 求 、 摘 要 、 技 术 功 效 句 作 
为 输入 ， 为 技术 词 生成 定制 prompt， 通 过 ChatGPT 分 别 从 第 一 权利 要 求 、 摘 要 、 
技术 功效 句 中 生成 技术 词 , 并 使 用 设置 的 技术 词 清洗 规则 对 生成 的 技术 词 进行 优 
化 得 到 技术 词 数据 1、 技 术 词 数据 2 和 技术 词 数据 3。 其 中 ， 技 术 功 效 句 指 的 是 
发 明 /实用 新 型 内 容 的 倒数 后 几 段 ， 对 第 一 权利 要 求 的 功效 进行 描述 的 段落 。 为 
功效 词 生成 定制 prompt， 通 过 ChatGPT 从 技术 功效 句 中 生成 功效 词 ， 并 设置 功 
效 词 清洗 规则 对 生成 的 功效 词 进行 优化 得 到 功效 词 数据 。 将 技术 词 数据 1、 技 术 
词 数据 2、 技 术 词 数据 3 和 功效 词 数 据 作为 训练 数据 。ChatGLM3 作为 学 生 模型 
(Student-model)， 通 过 知识 燕 馏 操作 中， 即将 ChatGPT 生成 的 训练 数据 用 于 
ChatGLM3 模型 的 学 习 ， 基 于 P-Tuning v2 微调 方法 ， 构 建 ChatGLM3 的 模型 微 
调 。 从 第 一 权利 要 求生 成 的 技术 词 数据 1， 对 ChatGLM3 模型 微调 后 得 到 技术 词 
抽取 模型 1， 从 摘要 生成 的 技术 词 数 据 2， 对 ChatGLM3 模型 微调 后 得 到 技术 词 
抽取 模型 2， 从 技术 功效 句 生成 的 技术 词 数据 3， 对 ChatGLM3 模型 微调 后 得 到 
技术 词 抽 取 模 型 3。 基 于 功效 词 数 据 ， 对 ChatGLM3 模型 微调 后 得 到 功效 词 抽取 
模型 。 
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技术 词 数据 和 功效 词 数 据 自动 生成 
人 工 标注 技术 功效 对 比 数据 


Figl. Research framework of technical and functional word extraction based on 


ChatGPT+ChatGLM3 


使 用 专利 验证 数据 集 ， 对 微调 的 三 个 技术 词 抽 取 模 型 和 功效 词 抽 取 模 型 的 效 
果 进 行 验证 。 对 技术 词 而 言 构建 多 组 技术 词 数据 集 , 三 个 技术 词 抽 取 模 型 分 别 从 


第 一 权利 要 求 、 摘 要 和 技术 功效 句 中 抽取 三 个 技术 词 数据 集 ， 直 接 使 用 ChatGPT 


分 别 从 第 一 权利 要 求 、 摘 要 和 技术 功效 句 中 抽取 三 个 技术 词 数据 集 ， 人工 对 每 篇 


专利 进行 解读 


标注 技术 词 , 以 上 7 组 技术 词 数 据 集 基 于 本 研究 设计 的 语义 相似 矩 


阵 评价 方法 计 


行 解读 标注 功 
方法 计算 准确 


算 准 确 率 、 召 回 率 和 Fl 值 评分 。 对 于 功效 词 构 建 多 组 功效 词 数据 


集 ， 分 别 通过 功效 词 抽取 模型 、ChatGPT 抽取 功效 词 数据 集 ， 人 工 对 每 篇 专利 进 


效 词 , 以 上 3 组 功效 词 数 据 集 基 于 本 研究 设计 的 语义 相似 矩阵 评价 
率 、 召 回 率 和 Fl 值 评分 。 此 外 ， 还 将 功效 词 抽 取 模 型 抽取 的 技术 


词 、 商 业 工具 
Fl 值 ， 以 验 j 


(Incopat) 导出 的 技术 词 与 人 工 标注 技术 词 比 较 准 确 率 、 召 回 率 和 
E 有 效 性 。 


3.2 ”数据 采集 与 处 理 


本 文 将 车 联网 V2X (Vehicle to Everything， 车 用 无 线 通 信 技 术 ) 技术 领域 的 
专利 作为 研究 基础 , 该 技术 是 3GPP(3rd Generation Partnership Project, 第 三 代 合 作 


伙伴 计划 ) 标 准 组 织 制定 5G 标准 技术 系列 的 重要 技术 方向 , 随 着 智能 驾驶 技术 的 
发 展 近 年 来 也 受到 高 度 关 注 。 

专利 训练 数据 来 自 智 意 芽 全 球 专 利 数据 库 , 检索 式 : (TAC:V2X OR 车 联网 ) 
AND (DESC:5G) AND (PC:HO4W OR HO4L OR HO4B OR HO4Q OR G08G OR 
GO6F), 合并 简单 同族 ,选择 包括 技术 功效 语 段 著录 信息 的 6278 件 中 文 专利 ( 检 
索 日 期 : 2023 年 10 月 ) 。 本 研究 的 训练 数据 集 在 同 语言 同 领域 下 超过 现 有 研究 
的 专利 数据 量 久 。 

实证 研究 的 专利 验证 数据 集 来 自 墨 丘 标准 必要 专利 〈《SEP) 数据 库 ， 用 和 车 联 
网 V2X 技术 相关 的 15 个 技术 标准 号 进行 检索 ， 得 到 167 件 中 文 专利 (2023 年 
10 月 ) 。 专 利 验 证 数据 的 技术 功效 句 采 用 从 智 意 芽 专 利 数据 库 中 导出 的 技术 功 
效 语 段 或 由 人 工 标注 。 


3.3 ”技术 词 抽取 方法 


(1) ChatGPT+ 提 示 Prompt 


ChatGPT 抽取 专利 训练 数据 的 技术 词 ， 技 术 词 从 第 一 权利 要 求 、 摘 要 、 技 术 
功效 名 三 种 语 料 中 分 别 抽取 。 调 用 ChatGPT 的 API 进行 实验 , 不 修改 默认 参数 。 
提示 〈prompt) 相当 于 一 种 [提示 语 」， 让 ChatGTP 进入 对 话 模式 。 根 据 本 
文 设计 的 实验 框架 ， 设 计 技 术 词 的 提示 prompt。 如 图 2 所 示 ， 技 术 词 抽取 任务 
的 prompt， 主 要 包括 : 设置 信 通 角色 信息 ， 定 义 技术 词 的 含义 ， 设 置 输 出 格式 


要 求 , 定义 输出 内 容 规 则 。 定义 技术 词 是 描述 专利 组 件 , 技术 名 词 的 词语 或 短语 。 


设置 系统 角色 


“messages”: [frole“:“system ,content : “你 是 一 


个 多 学 科 专 利 分 析 革 3 


定义 技术 词 
# { role“: “system”, “content”:“ 技 术 词 是 
描述 专利 组 件 , 技术 名 词 的 词语 或 短语 。 下 面 给 定 你 一 段 专利 文本 , 请 
参考 上 文 定义 , 识别 其 中 的 技术 词 。 } 


输出 格式 要 求 

# {role”: “system”, “content”:“ 以 ;为 
间隔 依次 输出 每 个 词语 ， 例 如 : “车 联网 能 力 指 示 信 息 ; 50 毫 米 波 滤波 
功 分 模块 ，V2X 连 接 指示 信息 ;阵列 图 像 传 感 器 ;MIMO 通 信和 系统 ， 基 于 
传输 (TX) 资源 池 的 拥塞 水 平 ，D2D 网 络 '“}， 


输出 内 容 规则 


{“role”: “system”, “content”: “要求 提取 


有 技术 的 朗 屋 丰 912 个 字 ， 请 太原 六 中 到 最 和 要 3-6 个 
术 短 语 即 可 ， 严 禁 自行 概括 “} 


2 技术 词 抽 取 的 prompt( 提 示 ) 流 程 
Fig2. Prompt J for 0 word extraction 
对 ChatGPT 生成 的 技术 词 , 通过 人 工 判 读 总 结 技术 词 清洗 规则 , 对 技术 词 进 
一 步 清洗 。 


(2) 基于 ChatGLM3+P-tuning 的 多 个 技术 词 抽 取 模 型 


将 专利 训练 数据 集 的 第 一 权利 要 求 、 摘 要 、 功 效 名 三 种 语 料 作 为 ChatGLM3 
模型 的 输入 ， 将 ChatGPT 预 训练 得 到 的 技术 词 数据 1、 技 术 词 数据 2、 技 术 词 数 
据 3 作为 输出 ， 采 用 P-Tuning v2 微调 方法 ， 第 一 权利 要 求 和 技术 词 数据 1 微调 
ChatGLM3 得 到 技术 词 抽 取 模 型 1， 摘 要 和 技术 词 数 据 2 微调 ChatGLM3 得 到 技 
术 词 抽取 模型 2, 功效 句 和 技术 词 数据 3 微调 ChatGLM3 得 到 技术 词 抽取 模型 3。 
P-Tuning vt 是 深度 即时 调 优 的 实现 ， 其 每 个 任务 有 0.1% 到 3% 的 可 训练 参数 ， 
大 大 降低 了 训练 时 间 存 储 成 本 和 每 个 任务 的 存储 成 本 。 

使 用 技术 词 抽 取 模 型 1,2,3 分 别 从 专利 验证 数据 的 第 一 权利 要 求 、 摘 要 、 技 
术 功 效 句 三 种 语 料 ) 中 抽取 技术 词 ， 得 到 多 组 技术 词 数据 集 。 


3.4 功效 词 抽取 方法 


(1) ChatGPT+ 提 示 Prompt 


ChatGPT 抽取 专利 训练 数据 的 功效 词 ,功效 词 从 功效 句 中 抽取 。 调 用 ChatGPT 
的 API 进行 实验 ， 不 修改 默认 参数 。 

提示 〈prompt) 相当 于 一 种 [提示 语 」， 让 ChatGTP 进入 对 话 模式 。 根 据 本 
文 设 计 的 实验 框架 ， 设 计 功 效 词 的 提示 prompt。 如 图 3 所 示 ， 功 效 词 抽取 任务 
的 prompt， 主 要 包括 : 设置 信 通 角色 信息 ， 定 义 功 效 词 的 含义 ， 设 置 输出 格式 
要 求 ， 定 义 输出 内 容 规 则 。 定 义 功效 词 是 描述 专利 应 用 场合 ， 具 备 的 优点 ， 技 术 
所 表达 功效 的 词语 或 短语 。 


设置 系统 角色 


“messages”: [{ role”: “system , “content“ : “你 是 一 


个 多 学 科 专利 分 析 者 )} ， 


定义 技术 词 
{role”: “system”, “content”: “功效 词 


世 

是 描述 专利 应 用 场合 , 具备 的 优点 ， 技术 所 表达 功效 的 词语 或 短语 ， 例 
如 以 下 示例 句 :， 本 申请 提供 的 复合 型 阻 燃 母 粒 在 保持 较 好 的 雾 度 和 较 
高 的 透 光 率 的 情况 下 ， 不 仅 具 有 好 的 阻 燃 性 能 的 同时 ， 还 具有 好 的 拉 
伸 强度 ， 力 学 性 能 优异 。 中 提取 的 功效 词 为 :“ 阻 燃 性 能 好 ， 拉 伸 强 
度 好 ;力学 性 能 优异 ”。 下 面 给 定 你 一 段 专 利文 本 , 请 参考 上 文 定义 , 识 
别 其 中 的 功效 词 。”} 


输出 格式 要 求 


# {“role”: “system ,content : “输出 格 
式 为 : “提高 过 程 可 操作 性 ， 实 现 集成 化 ， 实 现 方 式 有 益 效 果 ; 操作 
简单 ， 避 免 遭 到 损坏 ”“}， 


输出 内 容 规则 
{“role”: “system”, “content”: “要 求 提 


到 才思 长 忆 归 丰 450 他 ， 多 用 动词 加 名 词 短 语 的 形式 ， 不 要 


无 实 义 的 连词 ， 为 间隔 依次 输出 每 个 词语 ， 例如 :“ 提 高 过 程 可 
操作 性 ” 、” Se ' 实现 方式 有 益 效 果 ”、’ 操作 简单 '、’ 避免 
遭 到 损坏 '“}， 


图 3 功效 词 抽 取 的 prompt( 提 示 ) 流 程 


Fig3. Prompt process for function word extraction 


对 ChatGPT 生成 的 功效 词 , 通过 人 工 判读 总 结 功效 词 清 洗 规则 ,对 功效 词 进 
一 步 清洗 。 
(2) 基于 ChatGLM3+P-tuning 的 功效 词 抽 取 模 型 


将 专利 训练 数据 集 的 功效 句 作为 ChatGLM3 模型 的 输入 ， 将 ChatGPT 预 训 
练 得 到 的 功效 词 作为 输出 ， 采 用 P-Tuning v2 微调 方法 ， 微 调 ChatGLM3 得 到 功 
效 词 抽取 模型 。 

使 用 功效 词 抽取 模型 从 专利 验证 数据 的 技术 功效 句 中 抽取 功效 词 。 


3.5 ”专利 技术 词 、 功 效 词 抽取 效果 评估 

本 研究 基于 语义 相似 矩阵 的 方法 ， 综 合 评价 微调 模型 的 生成 效果 。 由 于 每 个 
单元 的 技术 词 和 功效 词 都 包括 多 个 词组 , 传统 对 单 句 进行 词 重 闭 计算 的 评价 指标 
难以 较 好 评价 模型 效果 。 本 研究 采用 BGE (BAAI General Embedding) 模型 计算 
各 词 的 语义 向 量 ，BGE 是 由 智 源 发 布 的 开源 中 英文 语义 向 量 模型 ， 在 中 英文 语 
义 检索 精度 与 整体 语义 表征 能 力 均 超越 了 社区 所 有 同类 模型 , 同时 保持 了 同等 参 
数量 级 模型 中 的 最 小 向 量 维度 ， 使 用 成 本 更 低 。 再 计算 向 量 间 的 Cosine 余弦 相 


TA^ 
Xi Xj 


似 度 ， 构 建 语义 相似 矩阵 ， 余 弦 相 似 度 的 计算 公式 为 一 一 二， 其 中 x; 表 示人 工 


人 ~ 


| 


标注 的 文本 (技术 词 或 功效 词 )， 表示 《〈 微 调 模型 或 ChatGPT) 抽取 的 文本 ， 


构建 的 矩阵 示意 图 如 图 4 所 示 , 纵 轴 为 人 工 标 注 的 技术 词 词组 , 横 轴 为 模型 生成 
的 技术 词 词组 ,计算 标注 词组 与 生成 词组 的 相似 性 得 出 最 终 分 数 。 


Similarity Matrix 


广播 模式 本 
单 播 模式 
0. 7 
车 联网 业务 
0.6 
分 组 数据 网 关 0.5 
0.4 
广播 组 播 业 务 中 心 
0.3 


图 4 相似 度 和 矩阵 示意 图 


Fig4. Similarity Matrix schematic 


相似 度 结 果 计 算 方 法 参考 BERT ScoreB0， 准 确 率 、 召 回 率 和 El 值 的 计算 公 
式 如 下 : 


1 内 
REgrr = 加 > maxx; 多 (1) 


XiEX 了 


1 
= > maxx 和 (2) 


X Xi EX 


Dh BERT 


,EX 


F 有 (1 +B’”)Pppr * Rpgrr 


BERT ~ 和 2 
Dh BERT pb Rpgrr 


在 公式 (3) 中 ,参数 5 取 值 越 大 ， 整 体 F1l 值 更 加 关注 准确 率 。 由 于 在 专利 
技术 词 和 功效 词 抽取 的 过 程 中 , 专利 的 关键 技术 推荐 追求 精确 性 ， 尽 量 不 挫 杂 常 
规 技术 手段 ,抽取 结果 的 正确 率 往往 比 抽取 数量 更 为 重要 ,因此 在 本 实验 中 更 加 
注重 准确 率 ， 实 验 过 程 中 6 取 值 为 2。 

此 外 ， 将 功效 词 抽取 模型 抽取 的 功效 词 结果 、 商 业 工 具 Incopat 导出 的 功效 
词 结 果 ， 分 别 相对 于 人 工 标注 的 功效 词 结果 计算 准确 率 、 召 回 率 和 Fl 值 。 
4 实证 研究 

将 车 辆 网 领域 的 6278 件 中 文 专利 作为 专利 训练 数据 集 , 用 于 ChatGPT 生成 
技术 词 和 功效 词 的 训练 数据 ， 并 对 ChatGLM3 进行 微调 。 将 选择 的 167 件 专利 
作为 验证 数据 集 ， 对 微调 ChatGLM3 后 得 到 的 三 个 技术 词 抽 取 模 型 和 功效 词 抽 
取 模 型 进行 验证 和 效果 评估 。 

4.1 实验 环境 与 参数 

本 实验 环境 配置 为 : CPU, Intel(R) Xeon(R) Gold 6338 CPU @ 2.00GHz; GPU， 
NVIDIA A100; 显存 : 80GB; Python 版 本 ，3.10.12; Cuda 版 本 ，12.2。 实 验 超 
参数 设置 如 表 1 所 示 。 选 择 多 个 训练 步 数 对 比 训练 效果 。 
表 1 实验 主要 超 参 数 设置 
Tab1. Experiment main hyperparameter settings 


(3) 


府 


_ 超 参数 中文 解 释 数值 
max_source_length 最 大 输入 序列 长 度 1024 
max_target_length 最 大 输出 序列 长 度 128 
train_batch_size 每 批 次 训练 数据 量 大 小 1 
learning_rate 学 习 率 2e-2 
max_steps 最 大 训练 步 数 2000-3000 


4.2 多 个 技术 词 抽取 模型 的 训练 损失 对 比 


训练 损失 是 评估 模型 在 训练 数据 上 的 表现 的 指标 之 一 ， 其 是 指 模 型 在 每 个 训 
练 步骤 中 预测 与 实际 标签 之 间 的 差异 的 平均 值 , 通常 希望 训练 损失 随 着 训练 步骤 
的 增加 而 逐渐 减 小 , 这 意味 着 模型 在 学 习 更 好 的 表示 并 更 好 地 匹配 标签 。 对 三 个 
从 技术 词 抽取 模型 (第 一 权利 要 求 的 技术 词 抽取 模型 1、 摘 要 的 技术 词 抽 取 模 型 
2、 技 术 功 效 句 的 技术 词 抽 取 模 型 3) 的 训练 损失 计算 并 对 比 。 如 图 5 所 示 ， 随 
着 训练 步 数 的 增加 ， 第 一 权利 要 求 的 技术 词 抽取 模型 的 训练 损失 最 低 。 


一 一 技术 抽取 模型 1 (第 一 权利 要 求 ) 
本 一 2 一 技术 抽取 模型 2 (摘要 ) 
一 0 一 技术 抽取 模型 3 (技术 功效 句 ) 


Loss 


0 2 4 6 8 10 
Epoch 


图 5 不 同 技 术 词 抽取 模型 训练 的 损失 对 比 
Fig3. Loss comparison graph for training of different technical word extraction 
model 


由 此 ， 多 个 技术 词 抽 取 模型 在 训练 损失 上 ， 第 一 权利 要 求 表现 最 佳 。 

4.3 设置 ChatGPT 生成 数据 的 清洗 规则 

通过 设置 清洗 规则 对 抽取 的 技术 词 和 功效 词 进行 过 滤 ， 去 除 噪声 。 
(1) 技术 词 清 洗 规则 


本 研究 在 该 部 分 共 使 用 6278 篇 专利 ，ChatGPT 共生 成 45774 个 技术 词 〈 包 
括 词组 或 短语 ) ， 在 清洗 之 前 ， 平 均 每 篇 专利 生成 7.29 个 技术 词 。 清 洗 掉 16728 
个 词 ， 最 后 得 到 29046 个 技术 词 ， 平 均 每 篇 专利 生成 4.62 个 技术 词 ， 被 清洗 掉 
的 为 一 些 噪音 词 ， 以 提高 最 终生 成 技术 词 的 准确 性 。 

如 表 2 所 示 ， 技 术 词 的 抽取 规则 共 12 个 ， 在 表 中 对 每 个 规则 进行 了 详细 介 
绍 和 解释， 所 有 规则 都 在 根据 ChatGPT 生成 的 技术 词 观 察 和 实验 后 确定 ， 来 删 
除 符合 规则 限定 情况 的 词语 或 短语 。 从 表 中 可 以 看 出 , 规则 4 清洗 掉 的 词 数量 最 
多 ， 为 5287 个 ， 规 则 1 和 8 都 清洗 掉 2000 多 个 词 。 例 如 : “Attention”“ 预 测 准 
确 “ 网 络 履 盖 率 高 “场地 数据 "等 不 代表 专利 技术 方案 技术 手段 的 无 意义 噪音 词 
被 清洗 。 


— 


表 2 技术 词 清洗 规则 的 示例 和 清洗 数据 


Tab2. Examples and cleaning data of cleaning rules of technical words 


序号 ”规则 介绍 规则 解释 示例 1 示例 2 数量 
1 只 有 单个 词语 ”单个 词语 通常 表示 某 种 Attention 通信 端 2288 
具体 设备 或 名 词 ， 难 以 
概括 专利 所 用 技术 
2 动词 + 名 词 + 动 ”该 规则 通常 表示 某 种 动 ” 升 级 文件 下 调制 方式 选择 941 
词 作 的 执行 ， 与 应 用 的 核 载 
心 技术 有 所 差别 


3 有 形容 词 且 长 ”该 规则 由 于 包含 形容 词 ”预测 准确 。 ”最 佳 资 源 857 


度 在 2-5 


4 动词 + 名 词 且 长 
度 在 2-5 


5 名 词 + 动词 且 长 
度 在 2-5 


6 数 词 + 名 词 


gl 包含 连词 的 词 
组 

8 包含 助词 的 词 
组 

9 包含 时 间 词 的 
词组 


10 只 有 动词 的 词 


组 

11 包含 基于 、 实 
现 、 率 高 、 率 低 
等 词 


12 包含 数据 一 词 ， 
且 长 度 在 3-7 


存在 ， 通 常 与 技术 类 词 


语 无 关 
该 规则 主要 由 动词 + 名 
词组 合 ， 且 长 度 较 短 ， 


由 
常 对 技术 描述 不 够 准 


该 规则 由 于 包含 数 词 ， 
通常 对 技术 描述 不 够 准 
确 
该 规则 由 于 连词 存在 ， 
通常 包含 两 个 主体 ， 对 
核心 技术 形容 不 够 准确 
该 规则 由 于 包含 助词 ， 
与 形容 词 规则 类 似 ， 对 
核心 技术 形容 不 够 准确 
该 规则 由 于 包含 时 间 相 
关 词 语 ， 对 技术 的 描述 
不 够 准确 
该 规则 所 有 词语 均 由 动 
词组 成 ， 难 以 准确 概括 
核心 技术 

该 规则 通常 包含 特定 非 


QC 


任务 排序 


par 


第 一 主 小 


|xl 


分 析 和 处 理 


语义 化 的 方 
式 


初始 相位 


开始 升级 


数据 传输 速 


核心 技术 词语 或 句 式 ， 
对 核心 技术 描述 不 够 准 
确 
该 规则 通常 对 数据 进行 
描述 ， 与 所 用 相关 技术 
不 符 


(2) 功效 词 清 洗 规则 


率 低 


训练 集 数据 


工作 时 长 


网 络 认证 


第 二 设备 


起 点 和 终点 


已 存储 的 通信 
参数 值 


早期 测量 结果 


备案 请 求 


网 络 覆 盖 率 高 


场地 数据 


5287 


1251 


1575 


474 


2493 


199 


813 


32 


518 


本 研究 在 该 部 分 共 使 用 6278 篇 专利 ，ChatGPT 共生 成 34791 个 功效 词 ( 包 


括 词组 或 短语 ) ， 在 清洗 之 前 ， 平 均 每 篇 专利 生成 5.54 个 功效 词 。 清 洗 掉 6021 
个 词 ， 最 后 得 到 28770 个 功效 词 ， 平 均 每 篇 专利 生成 4.58 个 功效 词 ， 被 清洗 掉 


的 为 一 些 噪音 词 或 无 意义 词 ， 以 提高 最 终生 成 功效 词 的 准确 性 。 


符合 


如 表 3 所 示 ， 功效 词 的 抽取 规则 共 6 个 , 前 两 个 规则 属于 在 句子 层面 掏 除 不 


求 的 功效 词 ， 后 四 个 规则 属于 在 短语 层面 删除 不 符合 


求 的 功效 词 。 在 表 


中 对 每 个 规则 进行 了 详细 介绍 和 解释 ， 所 有 规则 都 在 根据 ChatGPT 生成 的 功效 


词 观 紧 和 实验 后 确定 ,来 删除 符合 规则 限定 情况 的 词语 或 短语 。 


EE 最多， 为 4053 个 ， 规 则 16 清洗 掉 1811 个 词 。 例 如 :“ 该 


- 旦 . 


规则 3 清洗 挥 的 词 数量 


从 表 中 可 以 看 出 ， 


段 文本 中 的 功效 词 为 : “识别 的 功效 词 为 : “数字 编写 “模块 化 ”等 不 代表 专利 技 


术 功 效 的 无 意义 噪音 词 被 清洗 。 


表 3 功效 词 清 洗 规则 的 示例 和 清洗 数量 


Tab3. Examples and cleaning data of cleaning rules o function words 


序号 ”规则 介绍 规则 解释 


示例 1 示例 2 数量 


1 去 除 空 值 该 规则 整 篇 专利 层面 去 
除 空 值 ， 删 除 带 有 “不 
能 "、" 没 "、" 无 ”以 及 " 
功效 词 ” 的 短语 


规则 去 除 冒 号 前 的 文 


示例 文 段 中 技术 问题 以 及 114 
未 提供 明确 技术 效果 无 法 
的 功效 词 。 从 上 述 文本 上 


词 ， 请 提供 更 

多 专利 文本 。 

该 段 文本 中 识别 的 功效 词 472 
的 功效 词 为 : 

为 : 


3 长 度 在 4-15 该 规则 删除 长 度 过 短 或 
过 长 的 效果 词 


4 限定 开头 和 结 该 规则 删除 开头 为 “ 实 


尾 现 ”“ 使 用 ”， 结 尾 为 ” 
算法 ”“ 系 统 ”“ 策 略 “、 
“方法 “的 词 
5 细 粒 度 词 性 组 该 规则 删除 ntn 和 
合 v+n 词性 组 合 
6 细 粒 度 词 性 元 该 规则 短语 中 必须 包含 
素 动词 、 形 容 词 或 副词 ! 
的 一 种 


云端 系统 分 云 控 子 系统 根 4053 
析 实 现 警 示 ” 据 秒 级 导航 定 
区 域 的 现场 ”位 数据 
警示 方案 和 
关联 路 网 警 

示 方 案 
实现 端 对 端 实现 车 联网 71 
部 署 策 略 。 ISAC 系统 


发 送 SL 实现 GBR QoS 86 
PRS 的 资源 ” 流 的 建立 
数字 编号 模块 化 1811 


ChatGPT 生成 的 技术 词 和 功效 词 基 于 上 述 表 2 和 表 3 的 清洗 规则 清洗 之 后 ， 
得 到 : 技术 词 数 据 1、 技 术 词 数据 2、 技 术 词 数据 3 和 功效 词 数据 。 


4.4 技术 词 抽 取 结 果 


(1) 基于 ChatGLM3+P-tuning 的 技术 词 抽取 结 


本 文通 微调 ChatGLM3 的 技术 抽取 模型 能 


够 自动 识别 和 抽取 技术 词 。 使 用 


ChatGLM3 微调 得 到 的 三 个 技术 词 抽 取 模 型 ， 从 专利 验证 数据 集中 抽取 技术 词 ， 
示例 结果 见 下 表 4。 表 4 示 出 人 工 标注 结果 和 抽取 模型 的 技术 词 集合 。 其 中 ， 技 
术 词 抽取 模型 1 的 从 第 一 权利 要 求 中 抽取 技术 词 , 技术 词 抽取 模型 2 从 摘要 中 抽 
取 技 术 词 ， 技 术 词 抽 取 模 型 3 从 技术 功效 句 中 抽取 技术 词 。 

表 4 多 个 技术 抽取 模型 的 技术 词 抽取 结果 示例 


Tab4. Examples of extraction results of technical words of different technical extraction 


models 


ChatGLM3+P-tuning 抽取 技术 词 示 例 


人 工 标注 技术 词 抽取 模型 1 技术 词 抽取 模型 2 技术 词 抽取 模型 3 
中 央 根 密 钥 ; 第 一 私密 密 钥 ;第 三 用 户 ” 根 密 钥 分 发 ， 会话 密 ”直接 通信 服务 
UE; 向 网 络 节点 发 送 ” 设 备 ; 第 一 用 户 设备 ， 钥 获 取 ; UE 邻近 
请 求 ;， 识别 第 一 密 钥 ”网 络 节点 ; 直接 通信 ; 


的 标识 符 ; 私密 密 钥 ; 


直接 通信 


无 线 接 入 网 ;第 一 密 
钥 ; 标识 符 


接收 UE 的 身份 ;分 
组 数据 汇聚 协议 
(PDCP) 数 据 单元 ， 用 
户 数 据 的 标识 符 ; 

PC5 协议 ; 安全 链 路 ; 
发 送 PC5 协议 消息 


安全 链 路 ，PC5 协议 
消息 ; 非 互 联网 协议 
( 非 人 PP) 通信 ; 分 组 数 
据 汇聚 协议 (PDCP) 
数据 单元 


IP D2D PDCP 封装 ; 
非 D2D PDCP 封 
装 ;设备 到 设备 (D2D) 
通信 ;安全 数据 传输 


(2) 直接 使 用 ChatGPT 的 技术 词 抽 取 结 果 


直接 使 用 ChatGPT 分 别 从 专利 验 订 


F 数 据 的 第 


PC5 信 令 协议 ;用 户 


平面 传输 ; PDCP 
SDU 


技术 功效 句 中 抽取 技术 词 ， 如 下 表 5 所 示 。 


表 5 ChatGPT 的 技术 词 


] 取 结果 示例 


权利 要 求 〈 首 权 ) 、 摘 要 和 


Tab5. Examples of extraction results of technical words of ChatGPT 


ChatGPT 抽取 技术 词 示 例 


人 工 标注 


首 权 抽取 


摘要 抽取 


技术 功效 句 抽取 


一 个 或 多 个 ProSe 承 


邻近 服务 (ProSe) 进 行 


载 ， 聚 合 最 大 比特 率 
(AMBR) 参 数 ， 建 立 
ProSe 通信 


通信 的 方法 ;， 无 线 发 
射 / 接 收 单 元 
(WTRU); ProSe 承 
载 ， 聚合 最 大 比特 率 


邻近 服务 (ProSe) 通 信 
方法 和 设备 ;聚合 最 
大 比特 率 参 数 
(AMBR); 服务 质量 


(QoS); 无线 发 射 / 接 


(AMBR) 参 数 ; 网 络 实 
体 ; ProSe 通信 


收音 元 (WTRU); EPS 
承载 ;分 组 过 滤器 ; 
演进 型 分 组 系统 
(EPS) 


无 线 通 信 系 统 ， 无 线 
发 射 / 接 收 单 元 
(WTRU); 设备 到 设备 
(D2D) 通 信 ; 邻近 服务 
(ProSe) 


侧 链 路 单 播 链 路 ， 新 
的 第 一 下 层 标识 的 信 


侧 链 路 标识 ， 链 路 标 
识 符 ， 单 播 链 路 ， 下 


息 ; 链 路 标识 符 ; 办 


一 下 层 标 识 的 侧 链 路 


层 标识 ; 侧 链 路 数据 
帧 


4.5 功效 词 抽取 结果 


本 文通 微 计 
ChatGLM3 微 j 


四 
同 
E 
2 


侧 链 路 单 播 链 路 ， 侧 
链 路 标识 ; 下 层 标 识 ; 
链 路 标识 符 ， 更 新 请 
求 消息 ， 更 新 响应 消 
轧 : 侧 链 路 数据 帧 


更 新 用 于 链 路 的 标识 
符 ; 单 播 通 信 ; 标识 
符 改 变 ; eV2X 使 用 ; 
隐私 要 求 ， 第 三 方 跟 


中 


ChatGLM3 的 功效 抽取 模型 能 够 自动 识别 和 抽取 功效 词 。 使 用 


得 到 的 功效 词 抽取 模型 ， 从 专利 验证 数据 集 的 功效 句 中 抽取 功效 


词 。 直 接 使 用 ChatGPT 也 从 专利 验证 数据 集 的 功效 句 中 抽取 功效 词 。 并 提供 人 
工 解读 专利 标注 的 功效 词 结果 。 示 例 数 据 见 下 表 6。 


表 6 功效 词 抽取 结 


示例 


Tab6. Examples of extraction results of function words 


ChatGLM3+P-tuning 抽取 功效 词 示例 ChatGPT 抽取 功效 词 示例 
人 工 标注 模型 生成 内 容 人 工 标注 模型 生成 内 容 

支持 多 个 优先 级 等 级 ;邻近 服务 ; 文 持 多 个 连续 性 无 线 通 信 系统; 设备 到 

支持 多 个 应 用 优先 级 等 级 ;支持 多 设备 通信 ;邻近 服务 
种 应 用 

减少 使 用 的 带宽 ; 满足 ”减少 带宽 使 用 ;提高 侧 行 链 路 通信 提高 隐私 保护 ; 避免 被 

准确 性 和 传输 要 求 准确 性 ;满足 传输 要 第 三 方 跟踪 ; 保证 服务 
求 连续 性 ， 防 止 服 务 中 断 


4.6 技术 词 抽取 效果 评估 分 析 


(1) 微调 模型 的 抽取 效果 比较 


基于 BGE 模型 构建 语义 相似 和 矩阵 分 析 不 同 模型 抽取 技术 词 和 功效 词 的 效 

果 。 经 过 微调 ChatGLM3 得 到 的 三 个 技术 词 抽 取 模 型 分 别 从 第 一 权利 要 求 、 摘 
要 和 技术 功效 句 中 抽取 技术 词 ， 直 接 使 用 ChatGPT 也 分 布 从 第 一 权利 要 求 、 摘 
要 和 技术 功效 句 中 抽取 技术 词 , 对 比 两 种 模型 技术 词 抽取 结果 (微调 模型 的 训练 
步 数 为 3000) 和 人 工 标注 技术 词 结 果 ， 计 算 准确 率 、 召 回 率 和 Fl 值 ， 结 果 如 表 
7 所 示 。 


表 7 技术 词 抽取 效果 评估 结 


Tab7. Results of evaluation of extraction effect of technical words 


模型 训练 语 料 微调 模型 抽取 结果 ChatGPT 抽取 结果 
Precision Recall 下 1 Precision Recall 下 1 

下 个、 4 72 i| 王 求 

a ( 取 模 第 “权利 要 求 0.734 0.711 0.724 0.703 0.813 0.719 

二 二 -和 HE 

2 取 模 。 摘要 0.002 0.077 0.661 0.645 0.780 ”0.665 

pe 个、 4 性 下 总 

0 | 取 模 技术 功效 名 0.629 0.593 0.618 0.590 0.653 0.598 


平均 值 0.675 0.660 0.668 0.646 0.749 0.661 


微调 ChatGLM3 得 到 的 三 个 技术 词 抽取 模型 的 准确 率 的 计算 值 ， 都 大 于 直 
接 用 ChatGPT 抽取 技术 词 得 到 结果 的 准确 率 计 算 值 。 除 从 摘要 抽取 技术 词 的 微 
调 模型 的 Fl 值 略 小 于 ChatGPT 之 外 ， 其 他 Fl 值 都 大 于 ChatGPT。 三 个 技术 词 
抽取 模型 抽取 功效 词 的 准确 率 和 Fl 值 大 于 ChatGPT。 微 调 模型 相 较 于 ChatGPT 
呈现 准确 率 高 、 召 回 率 低 的 特点 。 其 原因 在 于 ChatGPT 的 抽取 词 数量 较 多 ， 涵 
盖 数 量 较 广 ， 因 此 召回 率 偏 高 ， 但 同时 噪声 数据 较 多 ， 准 确 率 相 对 偏 低 。 

专利 技术 词 抽 取 在 三 个 微调 模型 上 的 表现 来 看 , 从 第 一 权利 要 求 中 抽取 技术 
词 的 效果 最 佳 ，F1 值 为 0.724。 其 原因 在 于 ， 第 一 权利 要 求 描述 解决 技术 问题 的 
完整 技术 方案 ,涵盖 全 部 必要 技术 特征 ， 使 得 微调 模型 在 该 语 料 上 的 性 能 最 为 出 
色 。 技术 功效 句 语 料 更 专注 于 效果 提升 的 描述 ， 而 并 非 技 术 本 身 的 专业 描述 ， 因 
此 更 适用 于 从 技术 功效 句 中 抽取 功效 词 。 摘 要 语 料 涵盖 了 技术 背景 、 技 术 手 段 、 
效果 等 不 同类 型 的 信息 ， 概 括 更 为 笼统 ， 且 受 限 于 特定 字数 ， 也 不 一 定 包 括 完 整 


技术 方案 。 由 此 ， 从 第 一 权利 要 求 中 抽取 专利 的 解决 技术 问题 的 特点 
表现 的 效果 最 好 。 


(2) 超 参 数 对 技术 词 抽取 模型 1 的 抽取 效果 影响 


一 和 一 召回 率 一 x 一 准确 率 ”一 "一 F1 值 


数值 
[= 
局 


技术 特征 ， 


2000 2200 2400 2600 2800 3000 


步 数 


图 6 微调 训练 步 数 变化 对 技术 词 抽取 效果 的 影响 


Fig6. The influence of step number change on technical word extraction 

如 图 6 所 示 , 改变 第 一 权利 要 求 的 技术 词 抽取 模型 微调 时 的 训练 步 数 , 使 用 
不 同步 数 训练 ChatGLM3 得 到 的 技术 词 抽 取 模 型 分 别 抽取 技术 词 ， 探 索 训 练 步 
数 对 技术 词 抽 取 效 果 的 影响 ,计算 不 同步 数 下 的 技术 词 抽 取 模 型 抽取 技术 词 的 准 


确 率 、 召 回 率 和 Fl 值 ， 如 图 6 所 示 ， 对 比 发 现 : 2800 步 参数 下 的 技术 词 抽 取 模 


型 的 准确 率 最 大 ，3000 步 参 数 模 型 的 Fl 值 最 大 。 微调 ChatGLM3 时 的 训练 步 数 


并 非 越 大 越 好 ， 在 追求 高 准确 度 的 情况 下 ， 选 择 2800 步 的 训练 步 数 ， 
术 词 准 确 度 较 好 。 
4.7 功效 词 抽取 效果 评估 分 析 

如 表 8 所 示 ， 对 微调 ChatGLM3 得 到 的 功效 词 抽取 模型 抽取 的 功 


抽取 的 技 


效 词 进行 


评估 ， 并 与 ChatGPT 直接 抽取 的 功效 词 、Incopat 导出 的 每 篇 专利 的 功效 词 的 评 
估 结 果 进 行 对 比 。 计 算 功效 词 的 准确 率 、 召 回 率 和 Fl 值 ， 其 中 ， 从 准确 率 结果 


来 看 , 微调 模型 的 准确 率 最 高 , 为 0.649, 大 于 ChatGPT 抽取 结果 的 准 硬 


角 率 0.621， 


Incopat 标注 的 功效 词 仅 0.53。 本 文 基 于 知识 蒸馏 的 功效 词 抽取 模型 的 效果 优 于 


直接 用 ChatGPT 抽取 功效 词 的 效果 ， 相 比 于 商业 工具 的 功效 词 结果 ， 


在 准确 率 


上 有 明显 提升 。 此 外 ， 功 效 词 抽取 的 微调 模型 的 召回 率 、F1l 值 都 高 于 ChatGPT 
抽取 结果 和 Incopat 的 功效 词 。 其 中 ，Incopat 导出 的 功效 词 的 167 件 专 利 的 结果 


中 有 35 个 空 值 ， 去 掉 空 值 之 后 ， 得 到 的 准确 率 、 召 回 率 和 了 Il 值 分 别 


为 0.602、 


0.682 和 0.614， 也 都 低 于 本 文 微 调 的 功效 词 抽取 模型 。 由 此 ， 通 过 与 大 语言 模型 


ChatGPT 和 商业 工具 对 比 抽取 效果 之 后 订 
果 较 好 ， 达 到 理想 预期 。 
表 8 功效 词 抽取 效果 评估 结果 
Tab8. Results of evaluation of extraction effect of function words 


微调 模型 抽取 结果 ChatGPT 抽取 结果 Incopat 功效 词 


FE 明 , 本 文 所 微调 的 功效 词 抽 取 模 型 的 效 


Precision Recall 了 1 Precision Recall 下 1 Precision Recall 下 1 


0.649 0.792 0.670 0.621 0.776 0.644 0.530 0.592 0.539 


通过 以 上 对 技术 词 和 功效 词 抽取 效果 的 系统 评估 ， 发 现在 ChatGPT 生成 语 
料 基 础 上 进行 清洗 、 筷 选 ， 可 得 到 更 为 优质 的 训练 数据 ， 通 过 知识 蒸馏 操作 ， 设 
置 ChatGLM3 模型 的 微调 策略 ， 确 定 最 优 训练 步 数 ， 经 微调 后 的 ChatGLM3 模 
型 ， 从 第 一 权利 要 求 中 抽取 技术 词 具有 较 高 的 准确 率 且 效果 优 于 ChatGPT。 


5 总 结 与 展望 


本 文 研究 了 基于 大 预言 模型 知识 蒸馏 的 专利 技术 功效 词 自 动 抽 取 方 法 , 优化 
专利 技术 功效 抽取 的 效果 , 以 提升 快速 从 专利 文本 识别 和 抽取 技术 词 和 功效 词 的 
准确 性 。 系 统 设计 包括 训练 数据 处 理 、 模 型 微调 、 抽 取 效 果实 证 三 部 分 的 实验 方 
案 ， 设 置 知 识 蒸馏 操作 ， 以 ChatGPT 作为 教师 模型 ， 使 用 ChatGPT 从 第 一 权利 
要 求 、 摘 要 、 技 术 功 效 名 三 种 语 料 中 分 别 抽取 的 技术 词 ， 设 计 技 术 词 的 清洗 规则 
获取 优化 后 更 为 准确 的 技术 词 训练 数据 。 并 且 使 用 ChatGPT 从 技术 功效 句 中 抽 
取 功 效 词 ,， 并 设计 功效 词 的 清洗 规则 获取 优化 后 更 为 准确 的 功效 词 训练 数据 。 再 
以 ChatGLM3 作为 学 生 模型 ， 使 用 ChatGPT 从 第 一 权利 要 求 、 摘 要 、 技 术 功 效 
句 抽 取 的 技术 词 训练 数据 分 别 对 ChatGLM3 模型 微调 ， 得 到 三 个 技术 词 抽取 模 
型 ， 以 及 使 用 ChatGPT 从 技术 功效 句 抽取 的 功效 词 训 练 数据 对 ChatGLM3 模型 
微调 ,得 到 功效 词 抽取 模型 最 后 ,使 用 三 个 技术 词 抽取 模型 和 直接 使 用 ChatGPT 
对 专利 验证 数据 集 的 技术 词 进 行 抽取 , 采用 BGE 模型 计算 抽取 结果 的 语义 向 量 ， 
构建 语义 相似 和 矩阵， 计算 抽取 结果 的 准确 率 、 召 回 率 和 Fl 值 。 使 用 技术 功效 词 
抽取 模型 和 直接 使 用 ChatGPT 对 专利 验证 数据 集 的 功效 词 进行 抽取 ， 获 取 商 业 
工具 标注 的 专利 验证 数据 集 的 功效 词 , 同样 计算 三 种 功效 词 结果 的 准确 率 、 召 回 
率 和 Fl 值 。 

抽取 结果 评估 结果 表明 ， 三 个 技术 词 抽取 模型 相 较 于 ChatGPT 呈现 准确 率 
高 、 召 回 率 低 的 特点 ， 整 体 表现 优 于 ChatGPT。 从 技术 词 抽取 的 不 同 语 料 角度 来 
看 ， 第 一 权利 要 求 的 技术 词 抽取 模型 的 训练 损失 最 低 ， 且 在 模型 抽取 技术 词 的 效 
果 上 , 使 用 技术 词 抽取 模型 从 第 一 权利 要 求 语 中 抽取 技术 词 的 效果 最 佳 , 而 从 技 
术 功 效 句 抽取 技术 词 的 效果 最 差 。 在 微调 第 一 权利 要 求 语 料 的 ChatGLM3 模型 
时 ， 训 练 步 数 选择 2800 时 准确 率 最 大 ， 训 练 步 数 选择 3000 时 Fl 值 最 大 。 在 功 
效 词 的 抽取 效果 方面 ， 本 文通 过 微调 ChatGLM3 得 到 的 功效 词 抽取 模型 的 准确 
率 、 召 回 率 和 Fl 值 都 大 于 ， 直 接 使 用 ChatGPT 抽取 的 功效 词 以 及 商业 工具 标注 
技术 词 的 准确 率 、 召 回 率 和 Fl 值 。 

本 研究 方案 的 通过 知识 蒸馏 微调 ChatGLM3 得 到 的 技术 词 抽取 模型 和 功效 
词 抽取 模型 可 以 优化 大 语言 模型 抽取 技术 和 功效 的 效果 ， 提 升 抽 取 结 果 的 准确 
性 。 此 外 ,准确 的 技术 词 和 功效 词 生 成 ， 有 助 于 提供 更 高 质量 的 专利 分 析 ， 精 准 
抓 取 专 利 的 核心 技术 和 效果 , 快速 生成 专利 技术 创新 点 ,掌握 技术 发 展 脉络 和 趋 
势 。 

本 文 的 研究 内 容 当 前 还 局 限于 一 个 技术 领域 和 一 种 语言 , 后 续 可 将 本 文 的 模 
型 方法 扩展 到 更 多 的 技术 领域 和 专利 语言 文本 上 。 在 算 力 允 许 的 情况 下 ,可 以 进 
一 步 扩大 专利 验证 数据 集 的 数据 量 以 将 本 文 的 微调 模型 应 用 到 更 多 领域 的 专利 
文本 技术 和 功效 抽取 中 。 此 外 , 还 可 对 生成 训练 数据 的 数据 清洗 规则 进一步 优化 ， 


比如 设计 崭 除 非 核心 技术 词 的 规则 , 减少 噪声 词 ， 优 化 微调 模型 ,提升 抽取 结果 
的 效果 。 


参考 文献 : 

[] 马 建 红 ,， 张 明月 ， 赵 亚 男 . 面向 创新 设计 的 专利 知识 抽取 方法 []. 计算 机 应 用 , 2016, 36(02): 465-471. 
( Ma Jianhong, Zhang Mingyue, Zhao Yanan. Patent knowledge extraction method for innovation design [可 . 
Application Research Of Computers, 2016, 36(02): 465-471.) 

[2] 刘 晨 . 专利 信息 获取 与 分 析 系 统 关键 技术 研究 [D]. 北京 : 北京 工业 大 学 , 2009.(Liu Chen. Research on 
Key Technology of Patent Information Acquisition and Analysis System Beijing [D]. Beijing: University of 
Technology, 2009.) 

[3] 刘 和 孜 . 基于 多 维 技术 功效 图 的 铂 基 合金 技术 机 会 识别 研究 [D]， 武 汉 : 华中 科技 大 学 , 2019.(Liu Zi. 


Technology Opportunities Analysis Based on Multidimensional Technology-Function Matrix on Platinum Alloy 


[D], Wuhan: Huazhong University of Science and Technology, 2019.) 

[4] Huang J Y, HSU H T. Technology-function matrix based network analysis of cloud computing [J]. 
SCIENTOMETRICS, 2017, 113(1): 17-44. 

[5] KOROBKIN D M, FOMENKOYV S A, KOLESNIKOYV S G. A function-based patent analysis for support of 
technical solutions synthesis [C]. In: proceedings of the 2016 2nd International Conference on Industrial 
Engineering, Applications and Manufacturing (ICIEAMD, Chelyabinsk, Russia, 2016, DOT: 
10.1109/ICIEAM.2016.7911581. 

[6] KOROBKIN D M, FOMENKOYV S A, KRAVETS A G. Methods for Extracting the Descriptions of Sci-Tech 
Effects and Morphological Features of Technical Systems from Patents [C]. In: proceedings of the 2018 9th 
International Conference on Information, Intelligence, Systems and Applications (ISA), Zakynthos, Greece. 2018: 
1-4. 

[7] 印 锐 玲 . 专利 关键 短语 自动 提取 技术 研究 [D], 哈尔滨 : 哈尔滨 工业 大 学 , 2022. (Qiu Ruiling. 
RESEARCH ON AUTOMATIC EXTRACTION TECHNOLOGY OF PATENT KEY PHRASES [D], Harbin: 
Harbin Institute of Technology, 2022.) 

[8] 钱 力 , 刘 烟 , 张 智 雄 , et al. ChatGPT 的 技术 基础 分 析 中. 数据 分 析 与 知识 发 现 , 2023, 7(03): 6-15. (Qian 
Li, Liu Yi, Zhang Zhixiong et al. An Analysis on the Basic Technologies of ChatGPT [J]. Data Analysis and 
Knowledge Discovery, 2023, 7(03): 6-15.) 

[9] 白 如 江 ， 陈 启明 , 张 玉 洁 等 . 基于 ChatGPT+Prompt 的 专利 技术 功效 实体 自动 生成 研究 加. 数据 分 析 与 
知识 发 现 : 1-15. (Bai Rujiang, Chen Qiming, Zhang Yujie et al. Research on Automatic Entities Generation of 


Patent Technology Function Matrix based on ChatGPT+Prompt [J]. Data Analysis and Knowledge Discovery: 
1-15.) 

[10] 陈 颖 ， 张晓林 . 基于 特征 度 和 词汇 模型 的 专利 技术 功效 矩阵 结构 生成 研究 路 . 现代 图 书 情报 技术 ， 
2012, (02): 53-59. (Chen Ying, Zhang Xiaolin, Research of Patent Technology 一 effect Matrix Construction 


Based on Feature Degree and Lexical Model [J]. New Technology of Library and Information Service, 2012, (02): 
53-59.) 
[11] 陈晨 . 基于 Mapreduce 计算 模型 的 专利 技术 一 功效 一 应 用 图 构建 与 应 用 研究 [D]. 北京 : 北京 工业 大 


学 ,2013.( Chen Chen. Research on the construction and application of patent technology - Efficacy - Application 


graph based on Mapreduce calculation model [D]. Beijing: Beijing University of Technology,2013.) 
[12] HeYQ,LIY,MengLG,etal. A New Method of Creating Patent Technology-Effect Matrix Based on 
Semantic Role Labeling [C]. 2015 International Conference on Identification, Information, and Knowledge in the 


Internet of Things (IIKT), Beijing, China, 2015: 58-61. 


现 


[13] 翟 东 升 , 蔡 力 伟 , 张 杰 等 .基于 专利 数据 仓库 的 技术 功效 图 挖掘 方法 研究 一 一 以 3D 打印 技术 为 例 四. 现 
代 图 书 情报 技术 , 2015, (Z1): 131-138.( Zhai Dongsheng, CAI Liwei, Zhang Jie et al. The Study of Patent Data 


| 


Warehouse-based Technical Efficiency Map Mining Method -- Taking 3D Printing Technology as an Example [J]. 
New Technology of Library and Information Service, 2015, (Z1): 131-138.) 

[14] 胡 菊 香 , 吕 学 强 , 刘 秀 磊 等 . 专利 技术 功效 短语 获取 研究 可, 科学 技术 与 工程 , 2016, 16(14): 228-235. 
(Hu Juxiang, LV Xue-qiang, Liu Xiu-Lei et al. Extracting Technologies Efficacy Phrases of Patent for Research 
[J]. Science Technology and Engineering, 2016, 16(14): 228-235.) 

[15] 段 庆 锋 , 蒋 保 建 .基于 SAO 结构 的 专利 技术 功效 图 构建 研究 四. 现代 情报 , 2017, 37(06): 48-54. (Duan 
Qingfeng, Jiang Baojian. Building Patent Technology 一 Effect Map Based on SAO Structure [可 . Journal of 
Moder Information, 2017, 37(06): 48-54.) 

[16] TRAPPEY A J C, TRAPPEY CV,GOVINDARAJAN U H, et al. Construction and validation of an 


ontology-based technology function matrix: Technology mining of cyber physical system patent portfolios [J]. 
WORLD PATENT INFORMATION, 2018, 55: 19-24. 

[17] Deng N, Chen X, Ruan O, et al. PaEffExtr: A Method to Extract Effect Statements Automatically from 
Patents [C]. In: Proceedings of the 11th International Conference on Complex, Intelligent, and Software Intensive 
Systems (CISIS-2017), Torino, Italy, 2017: 667-676. 

[18] 王 独 洁 ， 穆 晓 敏 , 王 下 等 . 多 维 专利 技术 功效 分 析 模 型 构建 及 应 用 研究 四. 情报 理论 与 实践 , 2020， 
43(06): 131-134+130. (Wang Weijie, Mu Xiaomin, Wang Yan et al. The Multi-dimensional Patent 


Technology-effect Analysis Model: Model Construction and Application Study [J]. Information studies: Theory & 
Application, 2019, 43(06): 131-134+130.) 

[19] Yang Y X, Ren G C. Web-based methodology for extracting technology words in Chinese process patents [J]. 
INTERNATIONAL JOURNAL OF WEB INFORMATION SYSTEMS, 2020, 16(3): 315-329. 

[20] 李 剑 飞 , 吴 红 , 张 彪 等 . 技术 -功效 分 析 视 域 下 的 高 校 专 利 转移 对 象 识别 研究 一 一 以 石墨 烯 领域 为 例 四. 
情报 杂志 , 2021, 40(10): 193-199. (Li Jianfei, Wu Hong, Zhang Biao et al. Identification of University Patent 


Transfer Objects from the Perspective of Technology 一 Efficacy Analysis 
Journal of Intelligence, 2021, 40(10): 193-199.) 

[21] 向 妹 璇 , 李 害 . An Improved Technology-Function Features Extraction Method of Patents 一 An Case Study of 
6G Domain [J]. 中 国 发 明 与 专利 , 2021, 18(04): 3-9. (Xiang Shuxuan, Li Rui. Exploration on Automatic 
Extraction Method of patent technology Efficacy Features: A case study of 6G field [J]. CHINA INVENTION & 
PATENT, 2021, 18(04): 3-9.) 

[22] Zhang C, Mayr P, Lu W, et al. 2022. JCDL2022 workshop: extraction and evaluation of knowledge entities 
from scientific documents (EEKE2022) [C]. In: Proceedings of the 22nd ACMUIEEE Joint Conference on Digital 


Take Graphene as an Example [可 . 


Libraries, Association for Computing Machinery; Cologne, Germany, 2022: Article 54. 

[23] KI WANWOOK, KIM KWANGSOO. Generating Information Relation Matrix Using Semantic Patent 
Mining for Technology Planning: A Case of Nano-Sensor [J]. IEEE Access, 2017, 5: 26783-26797. 

[24] 王 学 昭 ,， 赵 萍 ， 赵 亚 娟 , et al.“ 技 术 - 功 效 ” 视 角 下 的 专利 布局 形势 揭示 与 风险 判定 中. 图书 情报 工作 ， 
2021, 65(16): 73-80. (Wang Xuezhao, ZHAO Ping, ZHAO Yajuan, et al. The Identification of Patent Layout 
Situation and Risk Based on Technology-Effect Matrix [J]. Library And Information Service, 2021, 65(16): 
73-80.) 

[25] 刘 春 江 ， 李 妹 影 , 刘 自 强 等 . 面向 多 维 技术 功效 分 析 的 专利 技术 功效 算 阵 构建 方法 研究 中. 情报 理论 
与 实践 , 2023, 46(12): 167-174. (Liu Chunjiang, Li Shuying, Liu Ziqiang et al. Research on the Construction 


Method of Patent Technology/Effect Matrix for Multidimensional Patent Technology/Effect Analysis [可 . 
Information studies: Theory & Application, 2023, 46(12): 167-174.) 


[26] 涪 洲 新 闻 . 涪 浒 号 . 汶 客 . 国内 唯一 全 面 对 标 OpenAI 的 创业 公司 ， 大 模型 已 经 出 到 第 三 代 [EB/OL]. 
[2023-10-29]. https://www.thepaper.cn/newsDetail forward 25099097. (Thepaper.cn. OpenAI is the only 


domestic startup with a comprehensive comparison, and the large model has come out to the third generation 
[EB/OL]. [2023-10-29]. https://www.thepaper.cn/newsDetail_forward_25099097.) 

[27] GOU J P, YU BS, MAYBANK SJ, etal. Knowledge Distillation: A Survey [J]. INTERNATIONAL 
JOURNAL OF COMPUTER VISION, 2021, 129(6): 1789-819. 

[28] HSIEH C-Y, LI C-L, YEH C-K, et al. Distilling Step-by-Step! Outperforming Larger Language Models with 
Less Training Data and Smaller Model Sizes [J]. ArXiv, 2023, abs/2305.02301. 

[29] LIU X, JI K, FU Y, et al. P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across 
Scales and Tasks [J]. ArXiv, 2021, abs/2110.07602. 

[30] ZHANG T, KISHORE V, WU F, et al. BERTScore: Evaluating Text Generation with BERT [J]. ArXiv, 2019， 
abs/1904.09675. 


致谢 北京 墨 丘 科技 有 限 公 司 CEO 黄 伟 才 先生 ， 通 过 “ 墨 丘 科 技 - 全 球 专 利 布局 分 析 平 台 ” 的 
标准 必要 专利 数据 库 ， 为 本 研究 提供 的 车 联网 5G 声明 标准 必要 专利 数据 ， 感 谢 其 在 数据 上 
的 支持 。 


通讯 作者 (Corresponding author》〉: 昌 璐 成 (Lyu Lucheng)，ORCID: 
0000-0002-2318-1073, E-mail: lvlc @mail.las.ac.cn。 


基金 项 目 : 本 文系 “国家 自然 科学 基金 青年 科学 基金 项 目 ”技术 距离 视角 下 的 技术 融合 模式 、 
特征 及 预测 研究 (项 目 编号 : 72304268)， 基 金 项 目 “2023 年 度 国家 资助 博士 后 研究 人 员 计 
划 〈C 档 ) ”( 项 目 编号 : GZC20232931) 和 基金 项 目 “ 文 撑 科 技 自 立 自 强 的 知识 产权 情报 导 
航 分 析 研 究 ”( 项 目 编号 ; E329110602) 的 研究 成 果 之 一 。 


This work is Supported by “Research on Technology Convergence mode, Characteristics and 


Prediction from the Perspective of Technology Distance” under the National Natural Science 
Foundation Youth Science Fund Project (Grant No. 72304268), “2023 National Funded 
Postdoctoral Researchers Program (C)” (Grant No. GZC20232931), and the Fund project 
“Intellectual Property Information Navigation Analysis for Supporting Technological 
Self-reliance” (Grant No. E329110602). 


作者 贡献 声明 : 

王 奎 芳 ， 提出 研究 思路 ， 设 计 研 究 方案 ， 数 据 采 集 和 分 析 ， 撰 写 论文 ; 
昌 瑞 成 研究 思路 和 研究 方案 的 讨论 ， 论 文 修订 ; 

孙 文 君 : 进行 实验 计算 ， 结 果 分 析 ; 
王 桶 虎 ， 进 行 实验 计算 ， 研 究 方案 讨论 
赵 亚 娟 : 研究 方案 讨论 。 


利益 冲突 声明 : 
所 有 作者 声明 不 存在 利益 冲突 关系 。 


支持 数据 : 


[1] 吕 璐 成 . Technical function data set DOI: 10.57760/sciencedb.j00133.00404. 


